Modèle décisionnel basé sur la qualité des données pour sélectionner les règles d'associations légitimement intéressantes
نویسنده
چکیده
Résumé. Dans cet article nous proposons d’exploiter des mesures décrivant la qualité des données pour définir la qualité des règles d'associations résultant d’un processus de fouille. Nous proposons un modèle décisionnel probabiliste basé sur le coût de la sélection de règles légitimement, potentiellement intéressantes ou inintéressantes si la qualité des données à l’origine de leur calcul est bonne, moyenne ou douteuse. Les expériences sur les données de KDD-CUP98 montrent que les 10 meilleures règles sélectionnées d’après leurs mesures de support et confiance ne sont intéressantes que dans le cas où la qualité de leurs données est correcte voire améliorée.
منابع مشابه
Usage des mesures pour la génération des règles d'associations
Résumé. L’analyse en ligne (OLAP) fournit aux utilisateurs une navigation interactive des données multidimensionnelles. Cependant, aucun moyen pour expliquer les corrélations existantes entre les données n’est offert. Ainsi, le couplage de l’OLAP et de la fouille de données, plus particulièrement les règles d’association a efficacement apporté une solution satisfaisante à ce problème. Dans ce c...
متن کاملUne comparaison de certains indices de pertinence des règles d'association
Résumé. Cet article propose une comparaison graphique de certains indices de pertinence pour évaluer l'intérêt des règles d'association. Nous nous sommes appuyés sur une étude existante pour sélectionner quelques indices auxquels nous avons ajouté l'indice de Jaccard et l'indice d'accords désaccords (IAD). Ces deux derniers nous semblent plus adaptés pour discriminer les règles intéressantes da...
متن کاملUn modèle génératif pour l'Apprentissage de la Topologie
Résumé. Un nuage de points est plus qu’un ensemble de points isolés. La distribution des points peut être gouvernée par une structure topologique cachée, et du point de vue de la fouille de données, modéliser et extraire cette structure est au moins aussi important que d’estimer la seule densité de probabilité du nuage. Dans cet article, nous proposons un modèle génératif basé sur le graphe de ...
متن کاملÉtude de l'interaction entre variables pour l'extraction des règles d'influence
Résumé. Cet article présente une méthode efficace pour l’extraction de règles d’influence quantitatives positives et négatives. Ces règles d’influence introduisent une nouvelle sémantique qui vise à faciliter l’analyse d’un volume important de données. Cette sémantique fixe la direction de la règle entre deux variables en positionnant, au préalable, l’une comme étant l’influent et l’autre comme...
متن کاملUn Modèle Homogène pour la Confidentialité et l'Intégrité des Données Relationnelles
Les systèmes d’information sont devenus omniprésents dans les organisations, et ne sont plus cantonnés à un nombre limités d’applicatifs : qu’il s’agissent de données d’exploitation, de rapports confidentiels ou d’une devanture accessible sur Internet, les systèmes d’information s’étendent dans toutes les branches des organisations. La sécurité est aujourd’hui un des enjeux considérables des sy...
متن کامل